GPT-4o 기반 챗GPT
올해 OpenAI는 제너레이티브 AI를 위한 새로운 반복 작업을 열심히 해왔습니다. 그 결과 터보, 비전, DALL-E, Whisper, Sora를 포함한 ChatGPT 모델이 발전했습니다. 2024년 5월 13일에는 사용자와 실시간으로 상호 작용할 수 있는 새로운 AI 모델인 GPT-4o를 출시했습니다. GPT-4o는 단일 모델에서 텍스트, 오디오, 이미지, 비디오의 혼합을 모두 수용할 수 있습니다.
여기에서 GPT-4o 모델 기반의 ChatGPT를 무료로 사용하고 고급 인공 지능의 이점을 누릴 수 있습니다.
GPT-4o란 무엇인가요?
OpenAI의 최신 모델인 GPT-4o(‘옴니’의 ‘o’)는 오디오, 시각, 텍스트 전반에 걸쳐 실시간 추론을 통합하여 인간과 컴퓨터의 상호 작용을 향상시킵니다. GPT-4의 지능 수준을 자랑하며 232밀리초 이내에 오디오 입력에 응답하고 평균 응답 시간은 320밀리초입니다. GPT-4o는 이미지를 이해하고 토론하는 데 탁월하여 사용자가 이미지와 상호 작용하고, 번역하고, 추천을 받을 수 있습니다. OpenAI는 고급 기능을 갖춘 새로운 음성 모드를 도입할 예정이며, 처음에는 알파부터 플러스 사용자까지 사용할 수 있습니다.
GPT-4o는 속도와 품질이 눈에 띄게 개선되었습니다. 이 모델은 ChatGPT 플러스 및 팀 사용자에게 제공되며, 엔터프라이즈 액세스 권한은 곧 제공될 예정이며 무료 사용자에게는 제한적으로 제공되며, 사용 한도에 도달하면 GPT-3.5로 전환됩니다. 또한, 팀 및 엔터프라이즈 사용자는 점진적으로 더 높은 메시지 한도를 누릴 수 있습니다.
최근 개선된 GPT-4o를 보완하기 위해, OpenAI는 MacOS용 ChatGPT 데스크톱 애플리케이션을 출시했습니다. 이 앱 자체는 GPT-4o에 국한되지는 않지만, 이 모델의 개선된 응답 시간과 멀티모달 기능의 이점을 크게 누릴 수 있습니다. 데스크톱 앱은 특히 전문적인 환경에서 ChatGPT와의 사용자 상호 작용을 혁신하는 것을 목표로 합니다.
GPT-4o의 고급 비전 기능
GPT-4o는 정교한 이미지 및 비디오 처리 기능으로 멀티모달 통합을 강화하여 기존의 텍스트 및 음성 상호작용을 뛰어넘습니다. 이 모델은 컴퓨터의 화면 콘텐츠를 해석하고 이미지에 대한 쿼리에 응답하며 다양한 작업을 위한 대화형 도우미 역할을 할 수 있습니다. 스마트폰과 같은 카메라에 연결하면 GPT-4o는 환경에 대한 실시간 설명을 제공할 수 있습니다.
OpenAI는 GPT-4o가 탑재된 두 대의 스마트폰이 대화를 나누는 놀라운 데모를 통해 이러한 기능을 시연했습니다. 한 스마트폰은 시각적 입력이 부족한 다른 스마트폰에 시각적 데이터를 설명하여 두 AI와 사람 간의 역동적인 3자 상호 작용을 촉진했습니다. 또한 이 시연에서는 AI 모델이 함께 노래를 부르며 이전 버전에서는 볼 수 없었던 새로운 기능을 선보였습니다. 이러한 발전은 일상적인 시나리오에서 보다 역동적이고 실용적인 적용을 가능하게 하는 AI 기술의 중요한 진전을 의미합니다.
GPT-4o 성능 대 다른 모델: Claude 3와의 비교
GPT-4o는 이전 모델인 GPT-4보다 훨씬 더 강력해진 AI 기능을 선보였습니다. 또한 새로운 기능을 도입하여 Anthropic의 Claude 3과 같은 모델과 차별화되었습니다. GPT-4o는 기존 벤치마크에서 텍스트, 추론, 코딩 인텔리전스에 대한 GPT-4 터보의 성능과 동등한 수준의 인상적인 성능을 보여줬습니다. 그러나 벤치마크 결과에서는 Claude 3가 GPT-4를 능가하는 성능을 보였고 Claude 3 Sonnet은 GPT-3.5보다 더 나은 성능을 보였습니다.
멀티모달 기능
GPT-4o의 멀티모달 기능에는 단일 모델 내에서 텍스트, 이미지, 오디오를 처리하는 기능이 포함됩니다. 사용자는 업로드된 이미지에 대해 토론하고, 실시간 음성 대화에 참여하고, 라이브 비디오 피드를 분석하는 등 모델과 상호작용할 수 있습니다. 반대로 Claude 3의 기능에는 텍스트 처리 기능만 포함되어 있습니다. 현재로서는 클로드 3의 멀티모달 기능에 대한 계획은 아직 발표되지 않았습니다.
OpenAI는 음성 모드의 평균 응답 시간이 GPT-3.5의 경우 2.8초, GPT-4의 경우 5.4초라고 밝혔습니다. 반면, GPT-4o는 평균 지연 시간이 0.32초에 불과하여 GPT-3.5보다 9배, GPT-4보다 17배 더 빠릅니다.
감성 지능
GPT-4o는 텍스트와 음성에서 감정을 감지하고 적절한 목소리 톤과 표정으로 응답할 수 있습니다. 반면, 클로드 3의 감성 지능은 아직 공개되지 않았습니다.
언어 지원
GPT-4o는 50개 이상의 언어로 제공되므로 전 세계 사용자가 이용할 수 있습니다. 이전 GPT-4는 다양한 언어를 지원하지만 비영어권 언어에서 GPT-4o의 성능을 능가할 수는 없습니다. Claude 3는 영어, 스페인어, 일본어, 프랑스어 등 4개 언어를 지원하는데, 이는 GPT-4o 및 GPT-4에 비해 제한적입니다. 언어 모델이 계속 발전함에 따라 포괄적인 언어 지원은 글로벌 채택과 사용성을 위해 매우 중요해질 것입니다.
개발자를 위한 비용
GPT-4o는 GPT-4 터보보다 50% 저렴하고, GPT-4는 GPT-4o보다 더 비쌉니다. Claude-3는 하이쿠(입력 0.25달러/톡, 출력 1.25달러/톡), 소네트, 오푸스(강력한) 등 3가지 모델 계층으로 제공됩니다.
컨텍스트 창
컨텍스트 창은 모델이 단일 대화에서 처리할 수 있는 최대 토큰 수를 의미합니다. GPT-4o의 컨텍스트 윈도우는 128,000개의 토큰으로, 컨텍스트나 일관성을 잃지 않고 긴 대화를 처리할 수 있습니다. 반면에 Claude 3는 200,000개의 토큰이라는 훨씬 더 큰 컨텍스트 창을 처리할 수 있습니다. 그렇기 때문에 이 모델은 광범위한 코드 베이스가 포함된 긴 텍스트를 분석하면서도 긴 대화 전반에서 일관성을 유지할 수 있습니다.
안전 및 정렬
OpenAI와 Anthropic은 모두 안전하고 윤리적 기준에 부합하는 AI 시스템을 만드는 것이 매우 중요하다는 점을 강조해 왔습니다.
OpenAI는 전문가들과 협력하여 GPT-4o의 새로운 양식과 관련된 모든 위험을 식별하고 해결했습니다. GPT-4o는 광범위한 테스트와 반복을 거쳐 여러 모달리티에 걸쳐 안전성을 기본으로 설계되어 잠재적인 위험을 완화했습니다. 또한 사용자에게 모델의 의사 결정 과정에 대한 가시성을 제공하는 등 특정 원칙과 가치에 따라 작동하도록 모델을 훈련시켰습니다.
GPT-4o의 사용 사례는 무엇인가요?
이 새로운 모델은 텍스트, 이미지, 음성으로 된 프롬프트를 이해하고 실시간 응답을 제공할 수 있습니다. 사용자들은 GPT-4o를 사용하는 몇 가지 창의적인 방법을 찾아냈습니다. 다음은 GPT-4o의 몇 가지 우수 사용 사례입니다.
데이터 분석
사용자는 단 한 번의 프롬프트만으로 원시 데이터를 인사이트와 작업으로 변환할 수 있습니다. 차트, 그래프는 물론 통계 요약도 생성할 수 있습니다. GPT-4o는 스프레드시트를 처리하고 단 30초 만에 데이터 분석을 수행할 수 있습니다.
전사 및 번역
GPT-4o는 이미지 인식의 고급 기능을 자랑합니다. 사용자는 오래된 글을 필사하여 과거 문서를 디지털 형식으로 변환할 수 있습니다. 또한 이 모델은 여러 언어에 걸쳐 실시간 번역을 수행할 수 있어 다양한 언어적 맥락에서 커뮤니케이션을 용이하게 합니다.
시각적 지원
GPT-4o의 고급 기능은 실시간 시각 지원을 제공하므로 시각 장애인이 세상에 더 쉽게 접근할 수 있습니다. GPT-4o는 주변 환경을 묘사하고, 사물을 식별하고, 텍스트를 읽을 수 있어 환경 탐색에 도움을 줄 수 있습니다.
코딩
GPT 모델과 그 파생 제품인 GitHub Copilot은 코드 작성 및 디버깅과 같은 코딩 지원을 제공합니다. 홍보 동영상에서 OpenAI는 음성 기능을 사용하여 코드를 설명하는 GPT-4o의 Python 코드와 상호 작용하는 기능을 시연했습니다. 실행 후 GPT-4o는 비전 기능을 사용하여 결과 플롯을 분석하고 설명합니다.
GPT-4o 가격
OpenAI는 GPT-4o API에 경쟁력 있는 가격 구조를 도입하여 이전 제품보다 접근성과 비용 효율성을 높였습니다. GPT-4o는 GPT-4 터보보다 더 나은 비전 기능을 갖추고 더 빠르지만 가격은 50% 더 저렴합니다. 이 모델의 가격은 입력에 5백만 토큰/백만 달러, 출력에 15백만 토큰/백만 달러, 비전은 0.001725/150×150픽셀 이미지에 0.001725달러입니다. 이 요약은 다른 최신 언어 모델에 비해 GPT-4o가 경쟁력 있는 가격으로 책정된 Claude 및 Gemini 모델과 함께 가격을 보여줍니다.
OpenAI API는 종량제 모델을 따르기 때문에 사용자는 일괄 처리 또는 프롬프트 최적화를 사용하여 처리되는 API 호출 및 토큰 수를 줄임으로써 비용을 최소화할 수 있습니다. 지연 문제를 완화하기 위해 개발자는 캐싱 또는 비동기 기술을 사용하여 코드를 최적화할 수 있습니다.
GPT-4o는 광범위한 기능을 갖춘 다목적 모델이지만, 특정 사용 사례를 이 모델의 강점에 맞추는 것이 중요합니다. 완전히 의존하기 전에 GPT-4o가 우리의 요구 사항을 충족하는지 평가하고 더 작은 모델을 미세 조정하거나 특정 작업에 더 적합한 대체 모델을 탐색하는 것을 고려해야 합니다.
GPT-4o의 제한 사항 및 리스크
현재 EU AI 법은 생성 AI를 규제하는 유일한 주목할 만한 법적 프레임워크입니다. OpenAI의 준비 프레임워크는 새로운 모델이 대중에게 공개하기에 적합한지 여부에 따라 4가지 우려 영역을 테스트합니다. 이러한 우려 영역에는 사이버 보안, 설득, 모델 자율성, BCRN(AI가 화학, 생물학, 방사능 또는 핵 위협을 만드는 데 전문가를 지원할 수 있는지 여부)이 포함됩니다. 이 네 가지 우려 영역은 각각 낮음, 중간, 높음, 심각(잠재적으로 인류 문명을 뒤흔들 수 있는) 등급으로 분류됩니다.
생성형 AI는 컴퓨터 비전으로 생성된 이미지나 동영상의 해석이 항상 제대로 작동하지 않을 수 있으므로 불완전한 결과물을 생성할 수 있습니다. 사투리가 강한 사람의 경우 음성 인식에 영향을 미쳐 100% 정확하게 인식하는 경우는 드뭅니다. 테스트 중에 OpenAI는 의도한 대로 작동하지 않는 일부 아웃테이크의 비디오를 GPT-4o에 제공했습니다. 특히 영어가 아닌 두 언어 간의 번역에서 문제가 발생했습니다. 다른 문제로는 부적절한 목소리 톤, 겸손하게 들리는 말투, 잘못된 언어 사용 등이 있었습니다.
OpenAI의 발표에 따르면 “우리는 GPT-4o의 오디오 양식에 다양한 새로운 위험이 존재한다는 것을 알고 있다”며 오디오 딥페이크의 부상을 가속화할 수 있다고 지적했습니다. AI는 딥페이크 사기 전화를 통해 유명인, 정치인, 친구 또는 가족을 사칭할 수 있습니다.
이러한 위험을 줄이기 위해 오디오 출력은 미리 정의된 음성 세트로 제한됩니다. 기술적으로 숙련된 사기꾼은 GPT-4o를 사용하여 텍스트 출력을 생성하고 이를 텍스트 음성 변환 모델과 페어링할 수 있지만, 이러한 접근 방식이 GPT-4o가 제공하는 지연 시간 및 톤 제어의 이점을 유지할 수 있을지는 불확실합니다.
GPT-4o는 미래에 어떤 의미가 있나요?
제너레이티브 AI가 빠르게 발전함에 따라 더욱 강력해질 것으로 예상할 수 있습니다. 더 많은 작업을 더 정확하게 수행하면서도 가능한 한 저렴한 가격으로 더 넓은 범위의 작업을 수행할 수 있어야 합니다. OpenAI의 모델 GPT-4o는 더욱 강력한 AI라는 목표를 향해 나아가는 단계 중 하나입니다.
이것은 완전히 새롭고 다른 모델 아키텍처의 1세대 OpenAI로, 아직 갈 길이 멀다는 것을 의미합니다. 앞으로 몇 달 동안 학습하고 최적화해야 할 것이 아직 많이 남아 있습니다.
단기적으로 GPT-4o는 특유의 기이함과 환각이 나타날 수 있지만 장기적으로는 속도와 출력 품질이 모두 향상될 것으로 예상됩니다. GPT-4o의 출시는 주요 기술 기업들이 Siri, Alexa, Google Assistant와 같은 음성 비서가 기대만큼 수익성이 높지 않다는 사실을 인식하고 있는 중요한 시점에 이루어졌습니다. OpenAI는 AI의 대화 기능을 활성화하여 잠재적으로 제너레이티브 AI를 위한 새로운 애플리케이션을 개발하는 것을 목표로 합니다.
결론
GPT-4o는 텍스트, 오디오, 시각 처리를 일관된 모델로 통합하는 제너레이티브 AI의 괄목할 만한 발전을 의미합니다. 이러한 혁신은 응답 속도를 높일 뿐만 아니라 실시간 번역부터 향상된 데이터 분석, 시각 장애인을 위한 향상된 접근성 기능에 이르기까지 상호 작용을 풍부하게 하고 애플리케이션 가능성을 확장합니다. 딥페이크 시나리오에서의 오용 가능성과 최적화의 필요성 등 초기 장애물에 직면해 있지만, GPT-4o는 인공 일반 지능 실현에 한 걸음 더 다가서고 있습니다. GPT-4o가 더 널리 보급됨에 따라 일상적 및 전문적인 AI와의 상호작용을 향상시켜 고급 기능을 더 저렴하게 제공하고 업계에 새로운 표준을 제시할 수 있을 것으로 기대됩니다.
자주 묻는 질문
GPT-4o는 무료인가요, 유료인가요?
GPT-4o는 향상된 텍스트 및 비전 기능을 통합한 ChatGPT의 무료, 플러스 및 팀 티어에서 추가 비용 없이 사용할 수 있습니다. 이러한 접근 방식은 고급 AI 기능을 널리 보급하고 AI 기술을 대중화하려는 OpenAI의 목표에 부합합니다.
GPT-4o는 오디오 입력에서 배경 소음을 어떻게 처리하나요?
GPT-4o는 오디오 입력 처리 중에 배경 소음을 고려하여 보다 상황에 맞는 응답을 제공할 수 있습니다.
GPT-4o는 비디오 콘텐츠를 생성할 수 있나요?
아니요. GPT-4o는 비디오 콘텐츠를 분석하고 설명할 수 있지만 새로운 비디오를 생성하는 기능은 없습니다. 비디오 생성의 경우, 이 작업을 처리하도록 특별히 설계된 OpenAI의 Sora 모델이 있습니다.
GPT-4o가 GPT-4보다 나은가요?
GPT-4o는 영어 텍스트 및 코딩 기능에서 ChatGPT-4 Turbo와 동등하며, 비영어권 언어 성능에서 현저한 향상을 보여줍니다. 또한 GPT-4보다 훨씬 빠르게 작동하며 시각 및 오디오 이해력에서 다른 모델을 능가합니다.